谷歌于2026年6月发布开源语言模型DiffusionGemma,首次将图像AI扩散机制引入文本生成,打破传统逐字自回归范式。该模型从随机噪声迭代优化,并行输出256个词块。经英伟达优化,在单GPU单用户模式下,运行速度比同类传统模型快近四倍,如H100显卡处理单请求时表现显著提升。
谷歌推出TurboQuant算法,通过PolarQuant和QJL技术,将大语言模型推理中的键值缓存内存需求降低至少6倍,在H100 GPU上注意力计算速度提升最高8倍,且保持零精度损失。这一突破有望降低AI部署成本,加速长上下文应用发展。
李飞飞团队推出RTFM模型,实现3D世界实时生成与交互,在单个H100 GPU上保持持久性和3D一致性,确保几何、物体位置及外观稳定,支持反射、阴影等效果,推动技术从概念走向实用。
Cohere发布Command A Reasoning语言模型,专为商业高难度推理任务设计。该模型在代理工作流、端到端系统构建和大文档分析方面表现优异,在BFCL-v3等多项基准测试中超越其他私有模型。支持H100/A100 GPU运行,具备强大技术能力。
实时对比各云服务提供商H100、H200等GPU实例价格,找最优方案。
提供高性能GPU出租服务,包括B200、H200、RTX4090、H100等型号。即时部署,价格透明。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
-
Google
$0.7
Bytedance
$0.8
$2
128
Alibaba
$0.4
$0.75
256
$8.75
$70
400
$1.75
$14
$0.35
64
$0.63
$3.15
131
$1
$4
$1.8
$5.4
16
Tencent
32
FastVideo
FastVideo团队推出的图像转视频模型,属于CausalWan2.2 I2V A14B系列,支持8步推理,能适配从H100到4090等多种GPU,也支持Mac用户使用。
pytorch
这是由PyTorch团队使用torchao进行量化的Qwen3-8B模型,采用int4仅权重量化和AWQ算法。该模型在H100 GPU上可减少53%显存使用并实现1.34倍加速,专门针对mmlu_abstract_algebra任务进行了校准优化。
jet-ai
Jet-Nemotron-4B是NVIDIA推出的高效混合架构语言模型,基于后神经架构搜索和JetBlock线性注意力模块两大核心创新构建,在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等开源模型,同时在H100 GPU上实现了最高53.6倍的生成吞吐量加速。
Jet-Nemotron是一个新型混合架构语言模型家族,超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等最先进的开源全注意力语言模型,同时实现了显著的效率提升——在H100 GPU上生成吞吐量最高可达53.6倍加速。
Mungert
基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段训练优化,在推理、聊天等任务上表现出色,支持多种语言,适用于多种AI应用场景。采用神经架构搜索技术优化,能够在单个H100-80GB GPU上高效运行。